智能论文笔记

With increasing number of crowdsourced private automatic weather stations (called TPAWS) established to fill the gap of official network and obtain local weather information for various purposes, the data quality is a major concern in promoting their usage. Proper quality control and assessment are necessary to reach mutual agreement on the TPAWS observations. To derive near real-time assessment for operational system, we propose a simple, scalable and interpretable framework based on AI/Stats/ML models. The framework constructs separate models for individual data from official sources and then provides the final assessment by fusing the individual models. The performance of our proposed framework is evaluated by synthetic data and demonstrated by applying it to a re-al TPAWS network.

translated by 谷歌翻译

WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs

Hoang Thang Ta , Abu Bakar Siddiqur Rahman , Navonil Majumder , Amir Hussain , Lotfollah Najjar , Newton Howard , Soujanya Poria , Alexander Gelbukh

分类：自然语言处理

2022-09-27

由于免费的在线百科全书具有大量内容，因此Wikipedia和Wikidata是许多自然语言处理（NLP）任务的关键，例如信息检索，知识基础构建，机器翻译，文本分类和文本摘要。在本文中，我们介绍了Wikides，这是一个新颖的数据集，用于为文本摘要问题提供Wikipedia文章的简短描述。该数据集由6987个主题上的80K英语样本组成。我们设置了一种两阶段的摘要方法 - 描述生成（I阶段）和候选排名（II阶段）作为一种依赖于转移和对比学习的强大方法。对于描述生成，与其他小规模的预训练模型相比，T5和BART表现出了优越性。通过将对比度学习与Beam Search的不同输入一起应用，基于度量的排名模型优于直接描述生成模型，在主题独立拆分和独立于主题的独立拆分中，最高可达22个胭脂。此外，第II期中的结果描述得到了人类评估的支持，其中45.33％以上，而I阶段的23.66％则支持针对黄金描述。在情感分析方面，生成的描述无法有效地从段落中捕获所有情感极性，同时从黄金描述中更好地完成此任务。自动产生的新描述减少了人类为创建它们的努力，并丰富了基于Wikidata的知识图。我们的论文对Wikipedia和Wikidata产生了实际影响，因为有成千上万的描述。最后，我们预计Wikides将成为从短段落中捕获显着信息的相关作品的有用数据集。策划的数据集可公开可用：https：//github.com/declare-lab/wikides。

translated by 谷歌翻译

由于缺乏自动注释系统，大多数发展城市的城市机构都是数字未标记的。因此，在此类城市中，位置和轨迹服务（例如Google Maps，Uber等）仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而，开发准确的招牌本地化系统仍然是尚未解决的挑战，因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法，该方法可以自动检测招牌，适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法，通过使用我们构造的SVSO（Street View Signboard对象）签名板数据集，通过详细评估和与基线进行比较，以达到最终提出的方法，这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌（即使图像包含多种形状和颜色的多种嘈杂背景的招牌）在SVSO独立测试集上达到0.90 MAP（平均平均精度）得分。我们的实施可在以下网址获得：https：//github.com/sadrultoaha/signboard-detection

translated by 谷歌翻译